丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
風(fēng)控與安全 正文
發(fā)私信給周蕾
發(fā)送

0

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識(shí)聯(lián)邦,開(kāi)創(chuàng)數(shù)據(jù)“可用不可見(jiàn)”新局面

導(dǎo)語(yǔ):做你的知己,同時(shí)對(duì)你一無(wú)所知。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識(shí)聯(lián)邦,開(kāi)創(chuàng)數(shù)據(jù)“可用不可見(jiàn)”新局面

近日,同盾科技人工智能研究院深度學(xué)習(xí)首席專家李宏宇做客雷鋒網(wǎng)公開(kāi)課,以《知識(shí)聯(lián)邦:開(kāi)創(chuàng)數(shù)據(jù)“可用不可見(jiàn)”新局面》為題進(jìn)行分享。

關(guān)注微信公眾號(hào)  AI金融評(píng)論 ,在公眾號(hào)聊天框回復(fù)“聽(tīng)課”,進(jìn)群可收看本節(jié)課程視頻回放。

此前同盾在數(shù)據(jù)聯(lián)邦、聯(lián)邦學(xué)習(xí)和安全多方計(jì)算的基礎(chǔ)上演化出統(tǒng)一框架體系“知識(shí)聯(lián)邦”,并基于知識(shí)聯(lián)邦體系發(fā)布了國(guó)產(chǎn)原創(chuàng)、自主可控的智邦平臺(tái)(iBond)及《知識(shí)聯(lián)邦白皮書(shū)》。

本次課程中,李宏宇詳細(xì)講述了知識(shí)聯(lián)邦的技術(shù)細(xì)節(jié),以及信用分評(píng)估、多頭共債風(fēng)險(xiǎn)、用戶體驗(yàn)A/B test等多個(gè)典型場(chǎng)景的聯(lián)邦學(xué)習(xí)應(yīng)用案例。

以下為李宏宇課程全場(chǎng)和互動(dòng)問(wèn)答精選,雷鋒網(wǎng)AI金融評(píng)論做了不影響原意的編輯:

天平兩端:數(shù)據(jù)隱私性和便利性

兩年前,我們接觸到區(qū)塊鏈和聯(lián)合建模中數(shù)據(jù)安全需求,就已在探索聯(lián)邦學(xué)習(xí)應(yīng)用。

近年來(lái)聯(lián)邦學(xué)習(xí)熱度變高,一個(gè)主要原因還是數(shù)據(jù)孤島現(xiàn)象,不僅僅有邏輯上的存在,也有物理上的。不止特征變量是孤島,也可能是更關(guān)鍵的學(xué)習(xí)當(dāng)中的標(biāo)簽,形成了割裂的形象。

在機(jī)構(gòu)間,尤其政府部門,很多數(shù)據(jù)沒(méi)有充分共享。又比如醫(yī)療,保險(xiǎn)公司希望用醫(yī)院的數(shù)據(jù)做健康險(xiǎn)或壽險(xiǎn)的風(fēng)險(xiǎn)評(píng)估。銀行和稅務(wù),也希望通過(guò)銀稅合作來(lái)獲取客戶的風(fēng)險(xiǎn)評(píng)估信息。

企業(yè)內(nèi)部也如此:集團(tuán)化的企業(yè)公司越來(lái)越大,子公司、分公司,就連部門內(nèi)部的系統(tǒng),都可能是自己分別開(kāi)發(fā)的,數(shù)據(jù)之間完全孤立。

再微觀一點(diǎn),每個(gè)用戶的數(shù)據(jù)都有很大的價(jià)值,想要生成一組通用的用戶畫像,要獲取到足夠多的用戶數(shù)據(jù)非常困難。

消除行業(yè)數(shù)據(jù)孤島現(xiàn)象,讓數(shù)據(jù)相互之間協(xié)作起來(lái),必然是未來(lái)發(fā)展趨勢(shì)。

另一種現(xiàn)象,就是隱私換便利,數(shù)據(jù)不斷地泄露導(dǎo)致詐騙。

為什么會(huì)不斷泄露?很大的一個(gè)原因,現(xiàn)在免費(fèi)使用一些APP時(shí),使用前都要用戶授權(quán),獲取相關(guān)數(shù)據(jù)。這些其實(shí)都是你的個(gè)人隱私,個(gè)別內(nèi)部人員可能會(huì)拿著你的數(shù)據(jù)對(duì)外變現(xiàn),產(chǎn)生詐騙行為。

用戶隱私都赤裸裸暴露在網(wǎng)絡(luò)的服務(wù)提供者面前,個(gè)人隱私當(dāng)成商品買賣已經(jīng)是非常普遍的現(xiàn)象。有調(diào)研顯示,70%以上的社會(huì)公眾對(duì)于當(dāng)前他們的個(gè)人信息是沒(méi)有安全感的。

近期也有傳聞?wù)f國(guó)外黑客論壇在出售中國(guó)很多金融機(jī)構(gòu)的信息。不一定真實(shí),但很多人心里也會(huì)緊張。

現(xiàn)在國(guó)際上和國(guó)內(nèi)上的立法慢慢出現(xiàn),這兩年中國(guó)在數(shù)據(jù)安全和隱私保護(hù)相關(guān)已經(jīng)做了很大的工作。

2019年有數(shù)據(jù)安全管理辦法,這也可能會(huì)是未來(lái)數(shù)據(jù)安全法的早期版本;數(shù)據(jù)交易服務(wù)安全要求也做了一些相應(yīng)的新規(guī)定。今年3月份有個(gè)人金融信息保護(hù)技術(shù)的規(guī)范。

想要這些數(shù)據(jù)完全閉塞,不共享數(shù)據(jù),這不現(xiàn)實(shí),要把這些有經(jīng)濟(jì)價(jià)值的數(shù)據(jù)充分利用起來(lái)。這就要在數(shù)據(jù)的隱私性和便利性之間尋求平衡。也正是這樣隱私保護(hù)的需求,未來(lái)會(huì)出現(xiàn)一系列新的技術(shù)浪潮。

有很多人對(duì)數(shù)據(jù)安全沒(méi)有非常清晰的認(rèn)識(shí)。這里我借用數(shù)據(jù)安全能力成熟度模型的定義來(lái)分享。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識(shí)聯(lián)邦,開(kāi)創(chuàng)數(shù)據(jù)“可用不可見(jiàn)”新局面

數(shù)據(jù)安全的核心,其實(shí)是以數(shù)據(jù)為中心的安全,它的目的仍然是保護(hù)數(shù)據(jù)的可用性、完整性和機(jī)密性。數(shù)據(jù)在安全的同時(shí),要保證它可用。

合法合規(guī)的情況下,怎樣做數(shù)據(jù)交易?它的定義是,在數(shù)據(jù)供需雙方以數(shù)據(jù)商品作為交易對(duì)象。

這里的重點(diǎn)就是:數(shù)據(jù)商品是什么?直接拿原始數(shù)據(jù)買賣,屬于數(shù)據(jù)商品,而對(duì)原始數(shù)據(jù)加工處理后的一些數(shù)據(jù)衍生產(chǎn)品也屬于數(shù)據(jù)商品。

另外一個(gè)更被大家關(guān)心的,就是隱私保護(hù),在國(guó)內(nèi)更多時(shí)候會(huì)稱之為個(gè)人信息

什么是個(gè)人信息?所有能夠單獨(dú)或結(jié)合識(shí)別特定自然人身份的那些信息,甚至是反映活動(dòng)情況的信息,都叫個(gè)人信息。

什么是共享?如果你是信息的控制者,你將信息共享給對(duì)方,就讓對(duì)方擁有了控制權(quán),在這之后你可能就沒(méi)有撤回或是拒絕的權(quán)利了。

這是共享最大的一個(gè)痛點(diǎn),新版的個(gè)人信息安全規(guī)范里面會(huì)看到很多關(guān)于信息共享的要求。

有用性,這是數(shù)據(jù)的一個(gè)非常重要的特點(diǎn),就是數(shù)據(jù)對(duì)于應(yīng)用一定要有具體的含義,要不然這個(gè)數(shù)據(jù)就沒(méi)有價(jià)值了。

為打破數(shù)據(jù)割裂和避免隱私泄露,數(shù)據(jù)可用不可見(jiàn)就成為一個(gè)重要的目標(biāo)。數(shù)據(jù)可用不可見(jiàn),即充分利用對(duì)各方的數(shù)據(jù),讓數(shù)據(jù)保持對(duì)外開(kāi)放,同時(shí)能夠讓數(shù)據(jù)不直接共享,不離開(kāi)機(jī)構(gòu)或個(gè)人。

在楊強(qiáng)老師的課程里有提到過(guò),數(shù)據(jù)不動(dòng)模型動(dòng),這是能夠解決數(shù)據(jù)可用不可見(jiàn)的一種方式。但它的核心是要去訓(xùn)練一個(gè)模型。而數(shù)據(jù)可用不可見(jiàn),不一定需要做建模這件事。

還有很多時(shí)候可能只是想做計(jì)算,這就不再是訓(xùn)練模型的事情,而是開(kāi)放和不共享的問(wèn)題。

開(kāi)放不共享,就像國(guó)家之間在能源材料的合作中,每個(gè)國(guó)家有一些核心資源如鐵礦石,類似于機(jī)構(gòu)的基本生產(chǎn)數(shù)據(jù)。

很多國(guó)家禁止出口這種核心的資源,相當(dāng)于是不能直接共享。但對(duì)于鐵礦石加工后的鋼鐵制品,他們卻開(kāi)放出口的。

也就是說(shuō),數(shù)據(jù)經(jīng)過(guò)加工之后,形成了一種半成品的形態(tài),它是可以開(kāi)放出去使用的,而不是用一種直接共享或直接訪問(wèn)原始數(shù)據(jù)的方式。

這樣看來(lái),我們其實(shí)可以也做到數(shù)據(jù)可用,但又不可見(jiàn)。換句話說(shuō)就是,“懂你不認(rèn)識(shí)你”。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識(shí)聯(lián)邦,開(kāi)創(chuàng)數(shù)據(jù)“可用不可見(jiàn)”新局面

懂你不認(rèn)識(shí)你”主要針對(duì)個(gè)人用戶。舉個(gè)例子,很多人的瀏覽習(xí)慣或行為會(huì)涉及到個(gè)人隱私,這些數(shù)據(jù)是不希望直接對(duì)外共享的。

但是我們又很希望能夠獲取到很多便利服務(wù),讓手機(jī)更懂自己,在需要的時(shí)候能夠提供相應(yīng)的推薦,讓軟件做得很智能、很貼心。這時(shí)就可以采用數(shù)據(jù)可用不可見(jiàn)的形式。

為了實(shí)現(xiàn)數(shù)據(jù)可用不可見(jiàn)這個(gè)目標(biāo),傳統(tǒng)的中心化計(jì)算模式,也就是大數(shù)據(jù)經(jīng)常會(huì)做的中心化聚集,把數(shù)據(jù)存儲(chǔ)聚集再學(xué)習(xí)訓(xùn)練,已經(jīng)不能滿足要求。

中心化不可行,那就讓數(shù)據(jù)分散在各個(gè)機(jī)構(gòu)形成,依然保留著所謂的小數(shù)據(jù)模式——相對(duì)來(lái)講是小數(shù)據(jù),當(dāng)然也有很多機(jī)構(gòu)的數(shù)據(jù)量已經(jīng)很大——采用分布式或去中心化方式計(jì)算或?qū)W習(xí)。

原始數(shù)據(jù)直接共享不可行,我們可以采用兩種方式,一是對(duì)數(shù)據(jù)進(jìn)行加密,加密后也不破壞原始數(shù)據(jù)的統(tǒng)計(jì)特性。

第二種方式,可以將數(shù)據(jù)知識(shí)化,也就是說(shuō)將數(shù)據(jù)轉(zhuǎn)化成為一種模型策略的知識(shí),然后再把這些分散的知識(shí)聚合在一起,實(shí)現(xiàn)數(shù)據(jù)的可用。這就是知識(shí)聯(lián)邦的大致構(gòu)想。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識(shí)聯(lián)邦,開(kāi)創(chuàng)數(shù)據(jù)“可用不可見(jiàn)”新局面

知識(shí)聯(lián)邦全景圖

知識(shí)聯(lián)邦從名字上看,有清晰的兩個(gè)主題:知識(shí)和聯(lián)邦。

什么是知識(shí)?這個(gè)概念源自于我們談?wù)摂?shù)據(jù)和信息。

數(shù)據(jù)一般被認(rèn)為是原始素材,客觀描述客觀事物的數(shù)量、屬性、位置等關(guān)系。

信息則是經(jīng)過(guò)加工處理之后、具有邏輯關(guān)系的數(shù)據(jù),通常會(huì)是對(duì)決策有價(jià)值。

知識(shí),更多是在信息層上再進(jìn)一步地歸納演繹之后,沉淀下來(lái)的有價(jià)值的信息。通常情況下,知識(shí)被認(rèn)為是與決策有關(guān)的。

智慧是有了知識(shí)之后,才能進(jìn)一步預(yù)測(cè)和判斷未來(lái),這可能是未來(lái)智慧城市或智慧決策的目標(biāo)。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識(shí)聯(lián)邦,開(kāi)創(chuàng)數(shù)據(jù)“可用不可見(jiàn)”新局面

數(shù)據(jù)、信息和知識(shí)經(jīng)常被混用,三者的界定和使用者有很大關(guān)系。

比如某個(gè)經(jīng)過(guò)加工的數(shù)據(jù),它可能對(duì)某人而言是一種信息,但對(duì)另外一個(gè)人來(lái)說(shuō)可能只是一個(gè)數(shù)據(jù)。

在某種語(yǔ)境下產(chǎn)生的一個(gè)知識(shí),在另外的語(yǔ)境里可能就是信息,甚至是根本沒(méi)有任何意義的數(shù)據(jù)。

從知識(shí)再跳到聯(lián)邦,其實(shí)聯(lián)邦才是我們的重心,其實(shí)想做的事情,最終是希望通過(guò)一種安全的方式解決數(shù)據(jù)孤島現(xiàn)象。

在知識(shí)聯(lián)邦里,聯(lián)邦本質(zhì)其實(shí)是一種數(shù)據(jù)的安全交換協(xié)議

之前還有數(shù)據(jù)聯(lián)邦,其實(shí)它跟知識(shí)聯(lián)邦差別很大。數(shù)據(jù)聯(lián)邦更多是一種數(shù)據(jù)集成方法,它實(shí)際上就是聯(lián)邦數(shù)據(jù)庫(kù)系統(tǒng),將不同來(lái)源的數(shù)據(jù)庫(kù)集成之后方便查詢。關(guān)鍵是它不涉及到隱私保護(hù)的機(jī)制。

知識(shí)聯(lián)邦其實(shí)是一套理論框架體系,目的是將數(shù)據(jù)聯(lián)合起來(lái),轉(zhuǎn)換成為有價(jià)值的知識(shí),同時(shí)在聯(lián)合的過(guò)程當(dāng)中采用一些安全的數(shù)據(jù)交換協(xié)議。目的是有效利用各參與方的數(shù)據(jù)來(lái)進(jìn)行知識(shí)的共創(chuàng)、共享和推理。

聯(lián)邦學(xué)習(xí)更強(qiáng)調(diào)怎樣訓(xùn)練、學(xué)習(xí)、建模,創(chuàng)造知識(shí)。但事實(shí)上還有很多常識(shí)、先驗(yàn)知識(shí)或領(lǐng)域知識(shí)不需要讓機(jī)器學(xué)習(xí)就可以去共享的,比如多源知識(shí)推理,這也屬于數(shù)據(jù)可用不可見(jiàn)。

在真正的實(shí)踐中,我們采用一種弱中心化方式。過(guò)去強(qiáng)中心化大數(shù)據(jù)集成方式是不可行的,主要是安全存在很大隱患。

但完全的去中心化,也很難兼顧效率。尤其是在進(jìn)行共識(shí)計(jì)算的時(shí)候,效率非常低。弱中心化方式更多是一種強(qiáng)中心化和去中心化的折衷,在中心節(jié)點(diǎn)只進(jìn)行計(jì)算,不對(duì)數(shù)據(jù)集成存儲(chǔ),可以達(dá)到安全和效率的兼顧。

在知識(shí)聯(lián)邦的框架體系里,我們不僅僅可以進(jìn)行聯(lián)邦學(xué)習(xí),同時(shí)也可以進(jìn)行安全多方計(jì)算,也可以進(jìn)行安全多方共享和安全多方推理。

事實(shí)上整個(gè)知識(shí)聯(lián)邦,與很多技術(shù)有一定關(guān)系,比如可執(zhí)行環(huán)境和隱私計(jì)算。前者依托硬件,可以成為知識(shí)聯(lián)邦的一種硬件化實(shí)現(xiàn)方式。

隱私計(jì)算更關(guān)注的,是隱私數(shù)據(jù)從產(chǎn)生、收集、保存,甚至到銷毀,所有環(huán)節(jié)中保護(hù)(隱私數(shù)據(jù))的方法。但在使用中,它偏于計(jì)算,而不包含學(xué)習(xí)的一些過(guò)程。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識(shí)聯(lián)邦,開(kāi)創(chuàng)數(shù)據(jù)“可用不可見(jiàn)”新局面

知識(shí)聯(lián)邦可以根據(jù)不同方式進(jìn)行分類。

  • 根據(jù)數(shù)據(jù)的特點(diǎn)分類

分成跨樣本的聯(lián)邦、跨特征的聯(lián)邦,甚至還有同時(shí)基于這兩種形式的復(fù)合型聯(lián)邦。

跨樣本的聯(lián)邦更多是同構(gòu)的數(shù)據(jù),數(shù)據(jù)特征一致,但數(shù)據(jù)擁有方式不同??缣卣鞯穆?lián)邦,更多會(huì)存在不同的機(jī)構(gòu)間。當(dāng)然這還是要有相同的、有交集的用戶才能進(jìn)行跨特征的聯(lián)邦。

除了這兩種形式之外,更復(fù)雜的是既要跨樣本又要跨特征復(fù)合型聯(lián)邦。

  • 根據(jù)聯(lián)邦應(yīng)用目的分類

可以分為聯(lián)邦計(jì)算、聯(lián)邦學(xué)習(xí)、聯(lián)邦推理等。剛才提到聯(lián)邦學(xué)習(xí)包含的主要是訓(xùn)練和預(yù)測(cè)兩個(gè)階段。

最早谷歌做聯(lián)邦學(xué)習(xí),更強(qiáng)調(diào)訓(xùn)練。訓(xùn)練結(jié)束后,模型預(yù)測(cè)直接發(fā)送到各個(gè)客戶端的手機(jī),用戶自行預(yù)測(cè)。但在跨特征聯(lián)邦,聯(lián)邦訓(xùn)練和聯(lián)邦預(yù)測(cè)都會(huì)遇到非常復(fù)雜的問(wèn)題。

聯(lián)邦計(jì)算,類似于安全多方計(jì)算。

聯(lián)邦推理,更多是知識(shí)層上的推理過(guò)程。

比如疫情期間,為了調(diào)查患者周圍的可疑人群,會(huì)涉及到很多數(shù)據(jù),包括行為軌跡、社交網(wǎng)絡(luò)、住宿交通等等。

但這些放在一起不是單純?cè)儆?xùn)練,是想把已有的知識(shí)做更多的知識(shí)演繹,推理出來(lái)新的知識(shí),最終鎖定嫌疑人群。

  • 根據(jù)對(duì)象類型

知識(shí)聯(lián)邦也可以分為是個(gè)體間、機(jī)構(gòu)內(nèi)和機(jī)構(gòu)間的聯(lián)邦。機(jī)構(gòu)間的聯(lián)邦大家都比較熟悉了,機(jī)構(gòu)內(nèi)部的聯(lián)邦其實(shí)也非常多。

比如大型跨國(guó)機(jī)構(gòu)希望把在中國(guó)境內(nèi)獲取到的數(shù)據(jù),能夠幫助他們?cè)跂|南亞、甚至是其他國(guó)家能夠有更大的幫助,但會(huì)涉及跨境數(shù)據(jù)交換的問(wèn)題,此時(shí)機(jī)構(gòu)內(nèi)的聯(lián)邦就發(fā)生了。

  • 根據(jù)聯(lián)邦階段分類

分為信息層、模型層、認(rèn)知層,和知識(shí)層聯(lián)邦。

信息層:主要發(fā)生在聯(lián)邦的數(shù)據(jù)轉(zhuǎn)到第三方的服務(wù)器之前,需要先把所有數(shù)據(jù)加密,或通過(guò)某種形式轉(zhuǎn)換成為有價(jià)值的信息。

模型層:發(fā)生在模型訓(xùn)練過(guò)程中,跟之前提到的聯(lián)邦訓(xùn)練的過(guò)程實(shí)際上是一致的。

認(rèn)知層:也發(fā)生在模型訓(xùn)練過(guò)程中,但并不把模型參數(shù)聚集在一起聯(lián)動(dòng),而是把局部訓(xùn)練之后產(chǎn)生的粗淺認(rèn)知進(jìn)行聯(lián)邦,變得更合理。

知識(shí)層:前面形成很多認(rèn)知結(jié)果之后,把它存成知識(shí)庫(kù)。這種知識(shí)庫(kù)其實(shí)每一家機(jī)構(gòu)都有,能夠組成一個(gè)知識(shí)網(wǎng)絡(luò)。如果在知識(shí)網(wǎng)絡(luò)上不斷推理和演繹,挖掘出更有價(jià)值的知識(shí),能提前預(yù)判事情的發(fā)生,最終形成合理決策。

比如疫情爆發(fā)最終導(dǎo)致全球股票、期貨大跌; 比如黑龍江等地成為二次爆發(fā)疫情的高風(fēng)險(xiǎn)區(qū),其實(shí)這些都是知識(shí)推理的過(guò)程。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識(shí)聯(lián)邦,開(kāi)創(chuàng)數(shù)據(jù)“可用不可見(jiàn)”新局面

具體來(lái)看,信息層聯(lián)邦在隱私保護(hù)方面,對(duì)加密技術(shù)要求更高。加密技術(shù)沒(méi)有到位,就無(wú)法很好保護(hù)參與方數(shù)據(jù)。所以信息層的聯(lián)邦一般要求數(shù)據(jù)脫敏加密之后,一定是以密文形式在第三方服務(wù)器上計(jì)算。

信息層更多應(yīng)用在聯(lián)邦計(jì)算的過(guò)程當(dāng)中,比如金融經(jīng)常出現(xiàn)的多頭共債問(wèn)題。在大產(chǎn)品的運(yùn)維和升級(jí)過(guò)程中,經(jīng)常會(huì)做的比如A/B test,這些都可以在信息層完成。

信息層也可以做聯(lián)邦學(xué)習(xí)的工作,但它不是在每一個(gè)參與方向去做訓(xùn)練學(xué)習(xí),而是把所有的密文數(shù)據(jù)直接放在第三方服務(wù)器上,再在密文上訓(xùn)練學(xué)習(xí)。

除此之外,還可以在信息層上做聯(lián)邦檢索。比如失信人員黑名單的查詢,這也是一個(gè)普遍存在的需求。

跨特征聯(lián)邦時(shí),需要做的用戶對(duì)齊可以在信息層上完成。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識(shí)聯(lián)邦,開(kāi)創(chuàng)數(shù)據(jù)“可用不可見(jiàn)”新局面

模型層,是用本地?cái)?shù)據(jù)訓(xùn)練本地模型,把模型參數(shù)變化加密之后,傳送到第三方進(jìn)行聚合。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識(shí)聯(lián)邦,開(kāi)創(chuàng)數(shù)據(jù)“可用不可見(jiàn)”新局面

認(rèn)知層,是在每一個(gè)參與方訓(xùn)練本地的數(shù)據(jù),提取本地的模型的特征表達(dá),加密之后上傳到第三方服務(wù)器,實(shí)現(xiàn)集成。

這種應(yīng)用主要出現(xiàn)在多模態(tài)智能信貸、智能身份認(rèn)證。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識(shí)聯(lián)邦,開(kāi)創(chuàng)數(shù)據(jù)“可用不可見(jiàn)”新局面

在跨樣本聯(lián)邦中,認(rèn)知層有點(diǎn)類似于機(jī)器學(xué)習(xí)里的集成學(xué)習(xí),不過(guò)聯(lián)邦會(huì)更關(guān)心數(shù)據(jù)隱私保護(hù)。

關(guān)于知識(shí)聯(lián)邦的更多技術(shù)細(xì)節(jié),可以查看我們近期發(fā)布的白皮書(shū)。

何為工業(yè)級(jí)應(yīng)用產(chǎn)品智邦平臺(tái)?

智邦平臺(tái)的核心有四大模塊,第一是任務(wù)場(chǎng)景。

現(xiàn)在平臺(tái)中的任務(wù)場(chǎng)景還需要定制開(kāi)發(fā),一個(gè)場(chǎng)景需要定制一個(gè)模型。一個(gè)常見(jiàn)問(wèn)題是,以前有很多面向不同任務(wù)場(chǎng)景已經(jīng)建成的模型,現(xiàn)在還沒(méi)有辦法快速聯(lián)邦化。

第二個(gè)模塊是功能服務(wù)。智邦平臺(tái)解決的是真實(shí)應(yīng)用中會(huì)遇到的問(wèn)題,比如模型發(fā)布,參與方之間的數(shù)據(jù)貢獻(xiàn)怎么衡量?費(fèi)用怎么統(tǒng)計(jì)?

第三個(gè)模塊是開(kāi)放計(jì)算平臺(tái)。平臺(tái)會(huì)模塊化,并支持開(kāi)放式、自動(dòng)化建模,方便快速建模的操作。

第四個(gè)模塊是基礎(chǔ)設(shè)施?;A(chǔ)設(shè)施更多是一些通用組件,提供底層服務(wù)。計(jì)算平臺(tái)和相關(guān)依賴采用容器化方式,能讓部署更方便快速。

除了四個(gè)核心模塊這里有兩個(gè)關(guān)鍵的中間件,一是通信設(shè)施,二是數(shù)據(jù)交換沙箱。

跨樣本聯(lián)邦相對(duì)來(lái)講比較容易落地,但跨特征聯(lián)邦必須要有這么一個(gè)多元異構(gòu)數(shù)據(jù)的交換沙箱才能夠完成,尤其是在內(nèi)網(wǎng)外網(wǎng)的通訊。這里涉及到的更多工作就不再展開(kāi)了。

跨樣本時(shí),有很多深度模型、樹(shù)模型都可以直接采用,但跨特征聯(lián)邦很多模型需要定制。

尤其是在金融行業(yè),大家更關(guān)心模型的可解釋性,所以很多時(shí)候都不用深度模型,而會(huì)選擇樹(shù)模型。智邦平臺(tái)就提供了包括深度模型、樹(shù)模型在內(nèi)的一些聯(lián)邦算法可供用戶選擇

跨樣本聯(lián)邦中還有一個(gè)常見(jiàn)問(wèn)題是,用戶數(shù)據(jù)太少,也就是小樣本的問(wèn)題。平臺(tái)中也提供了基于小樣本進(jìn)行聯(lián)邦(學(xué)習(xí))的方案。

簡(jiǎn)單來(lái)講,平臺(tái)三大亮點(diǎn)是:安全、智能和實(shí)用。平臺(tái)通過(guò)聯(lián)邦的數(shù)據(jù)交換沙箱和安全交換協(xié)議來(lái)解決安全性問(wèn)題;平臺(tái)提供多種智能模型供大家自由選擇;同時(shí)從貢獻(xiàn)的評(píng)估到計(jì)費(fèi),平臺(tái)提供了一系列功能解決實(shí)際應(yīng)用問(wèn)題。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識(shí)聯(lián)邦,開(kāi)創(chuàng)數(shù)據(jù)“可用不可見(jiàn)”新局面

網(wǎng)絡(luò)安全方面,將網(wǎng)絡(luò)安全域劃分成參與方的私有域、交換域和聯(lián)邦域三部分,數(shù)據(jù)交換發(fā)展在交換域,聯(lián)邦集成是在聯(lián)邦域完成。

數(shù)據(jù)安全和隱私保護(hù)方面,從隱私數(shù)據(jù)處理到模型數(shù)據(jù)的傳輸,平臺(tái)提供了多種安全加密方式,保證不同機(jī)構(gòu)間交集外所有用戶數(shù)據(jù)的安全性。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識(shí)聯(lián)邦,開(kāi)創(chuàng)數(shù)據(jù)“可用不可見(jiàn)”新局面

不過(guò)對(duì)于聯(lián)邦平臺(tái)的安全性和隱私保護(hù)等級(jí),目前為止還沒(méi)有一個(gè)類似等保的標(biāo)準(zhǔn),能對(duì)平臺(tái)工具進(jìn)行等級(jí)認(rèn)證。

事實(shí)上,對(duì)于數(shù)據(jù)安全,應(yīng)該要從數(shù)據(jù)流通的全過(guò)程進(jìn)行評(píng)估。對(duì)每一個(gè)涉及到數(shù)據(jù)隱私的地方,都要衡量采用的隱私技術(shù)所能達(dá)到的隱私保護(hù)等級(jí)。我們也在聯(lián)合多家單位一起推動(dòng)相關(guān)等級(jí)認(rèn)證標(biāo)準(zhǔn)的確立。

在金融行業(yè)應(yīng)用中,很多時(shí)候大家弄不清楚哪些數(shù)據(jù)屬于隱私、敏感程度達(dá)到什么程度。今年3月,央行出臺(tái)的個(gè)人金融信息保護(hù)技術(shù)規(guī)范,把很多金融信息分成了 C1、C2、C3的等級(jí)。根據(jù)敏感等級(jí),可以采用不同的技術(shù)手段進(jìn)行數(shù)據(jù)去標(biāo)識(shí)化和脫敏。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識(shí)聯(lián)邦,開(kāi)創(chuàng)數(shù)據(jù)“可用不可見(jiàn)”新局面

在聯(lián)邦應(yīng)用中,經(jīng)常會(huì)涉及到的主要還是C2級(jí)數(shù)據(jù)。C1級(jí)敏感數(shù)據(jù),更多是標(biāo)記信息。不過(guò)C1、C2、C3的劃分也具有相對(duì)性,當(dāng)相同的信息組合在一起,敏感度也會(huì)升級(jí)。所以考慮數(shù)據(jù)隱私保護(hù),必須要在一開(kāi)始就要做數(shù)據(jù)分級(jí)完整規(guī)劃。

總的來(lái)說(shuō),智邦平臺(tái)是參照知識(shí)聯(lián)邦體系打造出來(lái)的一站式聯(lián)邦平臺(tái)。平臺(tái)在算法能力方面,不僅支持聯(lián)邦學(xué)習(xí),還支持安全多方計(jì)算;也提供了非常樸實(shí)有效的一些算法;同時(shí)提供了聯(lián)邦特征選擇方法,來(lái)保證參與方的數(shù)據(jù)質(zhì)量。

安全機(jī)制方面,平臺(tái)提供了多種加密算法,比如在數(shù)據(jù)安全對(duì)齊中,平臺(tái)可以保證參與方交集外數(shù)據(jù)不會(huì)泄露。同時(shí)保證,標(biāo)簽信息在訓(xùn)練中不會(huì)參與傳輸。

而平臺(tái)最核心的聯(lián)邦數(shù)據(jù)安全交換沙箱則可以實(shí)現(xiàn)對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化和脫敏處理,同時(shí)封裝了一系列數(shù)據(jù)安全交換協(xié)議,供聯(lián)邦使用。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識(shí)聯(lián)邦,開(kāi)創(chuàng)數(shù)據(jù)“可用不可見(jiàn)”新局面

實(shí)施應(yīng)用方面,平臺(tái)在本地計(jì)算可以采用Spark計(jì)算方式,效率高,也方便和現(xiàn)有的機(jī)構(gòu)大數(shù)據(jù)生態(tài)打通。同時(shí)系統(tǒng)采用容器化方式,方便部署實(shí)施。

五大應(yīng)用場(chǎng)景詳解

  • 智能金融風(fēng)控

統(tǒng)建模方式里,運(yùn)營(yíng)商如果沒(méi)有y數(shù)據(jù),無(wú)法單獨(dú)建模;雙方又都不可能暴露自己隱私數(shù)據(jù)。

智邦平臺(tái)中會(huì)先由中間方協(xié)調(diào)者分發(fā)一個(gè)模型,然后分別基于本地的數(shù)據(jù)計(jì)算梯度。

盡管運(yùn)營(yíng)商沒(méi)有標(biāo)簽信息,但平臺(tái)在這里采用了計(jì)算換安全的方式,也是基于不經(jīng)意傳輸(OT)方法,把所有可能梯度都匯集到有標(biāo)簽的一方,讓它篩選和聚合。這時(shí)可以在y標(biāo)簽沒(méi)有被傳輸?shù)那闆r下,快速完成模型迭代。

當(dāng)然,這可能會(huì)讓計(jì)算成本高一點(diǎn),但聯(lián)邦建模的隱私性肯定是要遠(yuǎn)遠(yuǎn)大于傳統(tǒng)聯(lián)合建模。如果不考慮通信問(wèn)題,這兩種建模方式的收斂速度基本上一致。準(zhǔn)確性也差不多。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識(shí)聯(lián)邦,開(kāi)創(chuàng)數(shù)據(jù)“可用不可見(jiàn)”新局面

  • 小微企業(yè)信貸智能信審

企業(yè)信審相對(duì)更復(fù)雜,會(huì)有公開(kāi)數(shù)據(jù)、自有數(shù)據(jù)或是第三方數(shù)據(jù),各方數(shù)據(jù)匯集在一起,形成完整信息模型,這是很大的工作量,于是我們有了這樣一個(gè)信審模型。

不過(guò)如果能利用調(diào)查、工商、司法等信息,可以進(jìn)一步做聯(lián)邦推理,這時(shí)的信審才能算是完整的。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識(shí)聯(lián)邦,開(kāi)創(chuàng)數(shù)據(jù)“可用不可見(jiàn)”新局面

  • 用戶行為聯(lián)合建模

這是典型的跨樣本應(yīng)用場(chǎng)景,要做的是無(wú)感認(rèn)證。

簡(jiǎn)單說(shuō),輸入密碼的時(shí)候,我們每個(gè)人都有一些固定的輸入行為習(xí)慣,這些行為習(xí)慣能通過(guò)學(xué)習(xí)方法提取出相應(yīng)特征。

這就可以在密碼保護(hù)的同時(shí),加一層無(wú)感認(rèn)證,在輸密碼的時(shí)候自動(dòng)判斷用戶行為,判斷輸密碼的是否為用戶本人。

但是每個(gè)用戶端不可能暴露自己的數(shù)據(jù),同時(shí)也很難采集到每個(gè)用戶很多行為數(shù)據(jù),這就要用到基于小樣本的聯(lián)邦元學(xué)習(xí)。

聯(lián)邦元學(xué)習(xí)的隱私性肯定會(huì)要大于非聯(lián)邦方式;準(zhǔn)確率也會(huì)比非元學(xué)習(xí)高很多。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識(shí)聯(lián)邦,開(kāi)創(chuàng)數(shù)據(jù)“可用不可見(jiàn)”新局面

  • 多頭共債累積風(fēng)險(xiǎn)聯(lián)邦計(jì)算

很多機(jī)構(gòu)都借貸評(píng)估時(shí)都會(huì)面臨一個(gè)問(wèn)題:這個(gè)用戶有沒(méi)有在其他家做過(guò)貸款?他的風(fēng)險(xiǎn)是不是已經(jīng)透支得差不多了?

這時(shí)就希望能得到很多其他機(jī)構(gòu)的數(shù)據(jù),這個(gè)過(guò)程通常不需要去訓(xùn)練學(xué)習(xí),而是會(huì)利用一些簡(jiǎn)單的知識(shí)進(jìn)行判斷。

累計(jì)借貸風(fēng)險(xiǎn)可以通過(guò)安全的統(tǒng)計(jì)計(jì)算方式,在保證各家數(shù)據(jù)隱私不會(huì)泄露的前提下,匯總計(jì)算出該用戶的累計(jì)借貸風(fēng)險(xiǎn)。

  • 用戶體驗(yàn)A/B test

在自動(dòng)化大運(yùn)維平臺(tái)體系做A/B test,我們通常會(huì)分流出來(lái)一批用戶,然后判斷軟件上的某些改變會(huì)否讓他們的瀏覽行為習(xí)慣發(fā)生變化,是否會(huì)對(duì)他們有偏好上的影響。

我們可以統(tǒng)計(jì)用戶的信息,但不是直接收集用戶操作行為數(shù)據(jù),而是分別在用戶端對(duì)他們的行為習(xí)慣進(jìn)行統(tǒng)計(jì)計(jì)算,最終形成整體的統(tǒng)計(jì)特征作為統(tǒng)籌決策的依據(jù)。

現(xiàn)實(shí)應(yīng)用中,我們會(huì)面對(duì)很多分散的小數(shù)據(jù),知識(shí)聯(lián)邦的目標(biāo)是通過(guò)安全多方計(jì)算和學(xué)習(xí),做到數(shù)據(jù)可用不可見(jiàn),同時(shí)知識(shí)共建可共享。

智邦平臺(tái)作為知識(shí)聯(lián)邦參照實(shí)現(xiàn)的聯(lián)邦平臺(tái),會(huì)逐漸形成一套開(kāi)放的操作系統(tǒng),用戶可以組建和參與不同的任務(wù)聯(lián)盟,或者從模型商店中選用不同的模型。系統(tǒng)逐步開(kāi)放開(kāi)源給大家,讓更多用戶參與其中,這也是我們整個(gè)智能開(kāi)放操作系統(tǒng)的愿景。

智邦平臺(tái)對(duì)銀行消金非常有價(jià)值,可以持續(xù)提升其核心競(jìng)爭(zhēng)力,并提高其風(fēng)控質(zhì)量,讓其數(shù)據(jù)價(jià)值變現(xiàn)。同時(shí),也可以幫助相應(yīng)機(jī)構(gòu)提升行業(yè)影響力,并滿足監(jiān)管對(duì)于數(shù)據(jù)安全和隱私保護(hù)的要求。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識(shí)聯(lián)邦,開(kāi)創(chuàng)數(shù)據(jù)“可用不可見(jiàn)”新局面

總結(jié)一下,知識(shí)聯(lián)邦的落地實(shí)施有三個(gè)重點(diǎn):

首先是連接,也就是連接多方,讓多方參與進(jìn)來(lái),才會(huì)有聯(lián)邦數(shù)據(jù)安全交換的問(wèn)題。其次是智能,安全多方應(yīng)用最終目的還是智能化應(yīng)用,從多方數(shù)據(jù)中安全的提取和利用智能知識(shí)才是關(guān)鍵。最后是開(kāi)放,一個(gè)體系框架的發(fā)展和落地應(yīng)用需要大家廣泛的參與。

知識(shí)聯(lián)邦是一個(gè)開(kāi)放的體系,智邦平臺(tái)也是一個(gè)開(kāi)放的平臺(tái),未來(lái)會(huì)逐漸開(kāi)放出去,和大家合作共贏。

互動(dòng)問(wèn)答精選

問(wèn):一個(gè)子模型被攻擊,在模型聯(lián)盟過(guò)程當(dāng)中會(huì)造成怎樣的安全風(fēng)險(xiǎn)?是否存在較完善的防御策略?

李宏宇:其實(shí)模型攻防策略,不只是在聯(lián)邦過(guò)程產(chǎn)生,現(xiàn)在很多模型訓(xùn)練都會(huì)遇到,這些策略都可以在聯(lián)邦中使用。如果子模型只是被幾次攻擊,而整體數(shù)據(jù)量比較大的話,在長(zhǎng)時(shí)間的訓(xùn)練過(guò)程中,攻擊的影響會(huì)逐漸退化掉。

另外,如果其他參與方很多且數(shù)據(jù)量非常大的時(shí)候,一個(gè)參與方的模型被攻擊,相對(duì)影響還是會(huì)有,但不會(huì)那么明顯。

問(wèn):怎么分配利益?如何衡量各方的貢獻(xiàn)?

李宏宇:智邦平臺(tái)提供了聯(lián)邦特征選擇的方法,來(lái)保證用戶數(shù)據(jù)質(zhì)量,遴選那些對(duì)于整個(gè)模型精度有提升、有幫助的特征。模型精度提升的效果就是衡量貢獻(xiàn)并進(jìn)行利益分配的一個(gè)標(biāo)準(zhǔn)。貢獻(xiàn)度評(píng)估方法其實(shí)有很多種,但在聯(lián)邦應(yīng)用中落地實(shí)施還需要進(jìn)一步技術(shù)突破。

問(wèn):聯(lián)邦學(xué)習(xí)或知識(shí)聯(lián)盟是否只是大廠的機(jī)會(huì)?

李宏宇:倒不一定。聯(lián)合建模也好,做聯(lián)邦也好,這都是應(yīng)用導(dǎo)向的。但現(xiàn)在最困難的一個(gè)問(wèn)題是,怎樣把這機(jī)構(gòu)間多元異構(gòu)數(shù)據(jù)給標(biāo)準(zhǔn)化和統(tǒng)一化,這才是最大的痛點(diǎn),大廠也不一定能解決這個(gè)問(wèn)題。

現(xiàn)在的關(guān)鍵是誰(shuí)能把這個(gè)問(wèn)題解決掉,其它建?;蛴?jì)算就都可以在這樣的基礎(chǔ)平臺(tái)上去完成,并創(chuàng)造價(jià)值。各種企業(yè)都有機(jī)會(huì)。

問(wèn):準(zhǔn)確性提升算誰(shuí)的?

李宏宇:在整個(gè)聯(lián)邦過(guò)程中,模型提升通常有一定的應(yīng)用目的。通常會(huì)有一家模型需求方,用自有的數(shù)據(jù)訓(xùn)練出的準(zhǔn)確度不高,但是如果引入其它聯(lián)邦方的數(shù)據(jù)時(shí),精度就會(huì)大大提升。這個(gè)時(shí)候準(zhǔn)確性提升的功勞是誰(shuí)的?這個(gè)問(wèn)題顯而易見(jiàn),難的是如何量化這種貢獻(xiàn)。

問(wèn):樣本對(duì)齊和加密模型訓(xùn)練與對(duì)策,區(qū)別在哪里?

李宏宇:樣本對(duì)齊是發(fā)生在模型聯(lián)邦訓(xùn)練之前的一個(gè)工作,主要是尋找參與方之間的共同用戶(交集)。樣本對(duì)齊面臨最多的問(wèn)題是,參與方都不希望交集外的數(shù)據(jù)還被泄露出去?,F(xiàn)在智邦平臺(tái)做到已經(jīng)達(dá)成了這個(gè)目標(biāo)。

樣本對(duì)齊要想做到充分安全,也就是交集內(nèi)用戶也不對(duì)外可見(jiàn),還是有很大挑戰(zhàn)的,這需要與訓(xùn)練過(guò)程結(jié)合在一起才能實(shí)現(xiàn)。

后臺(tái)回復(fù)“知識(shí)聯(lián)邦” ,即可獲得完整版《知識(shí)聯(lián)邦白皮書(shū)》。

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)